Masked Action Modeling

mentions 1 type Person feed RSS

// recent coverage 1 mentions

04:00

2026-06-16

arxiv.org

artificial-intelligence

X-Tokenizer: A Multimodal Action Tokenizer for Vision-Language-Action Pretraining

Researchers introduced X-Tokenizer, a multimodal action tokenizer for vision-language-action pretraining that uses Semantic Residual Quantization and Masked Action Modeling to create a discrete action…

// co-occurs with top 5 entities

X-Tokenizer 1 Semantic Residual Quantization 1 FAST 1 RoboTwin 2.0 1 arXiv 1